epth Anything V2 데이터 중심 단안 깊이 추정

epth Anything V2 데이터 중심 단안 깊이 추정

2025-12-16, G30DR

1. 서론: 3차원 공간 인식의 난제와 단안 깊이 추정의 패러다임 전환

컴퓨터 비전 분야에서 단일 2차원(2D) 이미지로부터 3차원(3D) 공간 정보를 복원하는 단안 깊이 추정(Monocular Depth Estimation, MDE)은 오랜 난제 중 하나였다. 인간의 시각 시스템은 양안 시차, 운동 시차, 그리고 경험적 지식을 통해 깊이를 인지하지만, 컴퓨터가 단 한 장의 RGB 이미지만으로 각 픽셀의 절대적 혹은 상대적 거리를 계산하는 것은 기하학적으로 무수히 많은 해가 존재하는 ’불량 설정 문제(Ill-posed problem)’에 해당한다. 과거에는 이를 해결하기 위해 스테레오 카메라나 LiDAR와 같은 고가의 하드웨어에 의존하거나, 제한적인 데이터셋에서 학습된 초기 딥러닝 모델들을 사용해왔다. 그러나 이러한 접근법은 특정 환경에 과적합(Overfitting)되거나, 복잡한 비정형 환경(Open-world)에서 일반화 성능이 급격히 떨어지는 한계를 보였다.1

최근 수년간 대규모 데이터셋과 Vision Transformer(ViT)의 발전은 이러한 MDE 분야에 ’파운데이션 모델(Foundation Model)’이라는 새로운 패러다임을 제시했다. 그중에서도 Depth Anything V2(이하 DAv2)는 기존의 한계를 극복하고 실용성과 성능의 정점을 찍은 모델로 평가받는다. 2024년 6월 공개된 DAv2는 전작인 V1의 아키텍처를 계승하면서도, 학습 데이터의 구성과 레이블링 전략을 근본적으로 혁신함으로써 미세한 디테일(Fine-grained detail)과 강건성(Robustness)을 비약적으로 향상시켰다.2 특히 생성형 AI(Generative AI) 기반의 깊이 추정 모델들이 부상하는 가운데, DAv2는 전통적인 판별 모델(Discriminative Model)의 효율성을 유지하면서도 생성 모델에 버금가거나 이를 능가하는 정확도를 달성했다는 점에서 학술적, 산업적 의의가 크다.4

본 보고서는 DAv2의 설계 철학, 기술적 아키텍처, 데이터 파이프라인, 그리고 다양한 응용 분야(메트릭 깊이, 비디오 처리)를 포괄적으로 분석한다. 특히 “어떻게 합성 데이터(Synthetic Data)만으로 현실 세계를 이해하는 모델을 만들었는가?“라는 핵심 질문을 중심으로, DAv2가 제시하는 데이터 중심 AI(Data-Centric AI)의 방법론을 심층적으로 고찰한다.

2. 배경 지식 및 기술적 맥락

DAv2를 온전히 이해하기 위해서는 기존 MDE 기술의 흐름과 핵심 구성 요소인 DINOv2 및 DPT에 대한 이해가 선행되어야 한다.

2.1 단안 깊이 추정의 진화: MiDaS에서 Depth Anything까지

초기 딥러닝 기반 MDE는 NYUv2나 KITTI와 같이 레이블이 확보된 특정 데이터셋에서 지도 학습(Supervised Learning)을 수행했다. 그러나 이 방식은 학습되지 않은 환경(Zero-shot)에서는 성능이 처참했다. 이를 해결하기 위해 등장한 MiDaS는 다양한 데이터셋을 혼합(Mixing)하여 학습하는 전략을 취했다.5 MiDaS는 데이터셋마다 다른 깊이 스케일과 시프트를 정렬하는 손실 함수를 도입하여 범용성을 확보했으나, 각 데이터셋이 가진 레이블의 노이즈와 부정확성을 그대로 학습한다는 단점이 있었다.

Depth Anything V1은 여기서 한 걸음 더 나아가, 레이블이 없는 대규모 데이터(Unlabeled Data)를 활용하는 준지도 학습(Semi-supervised Learning) 방식을 도입했다. 그리고 DAv2는 “모든 레이블된 실제 이미지를 합성 이미지로 대체한다“는 급진적인 전략을 통해 데이터의 품질 문제를 정면으로 돌파했다.7

2.2 판별 모델 vs. 생성 모델

현재 MDE 분야는 크게 두 가지 흐름으로 나뉜다.

  1. 판별 모델 (Discriminative Models): 입력 이미지를 받아 픽셀별 깊이 값을 회귀(Regression)로 예측한다. DAv2, MiDaS가 이에 해당하며, 추론 속도가 빠르고 결정론적(Deterministic)인 출력을 내놓는다.1
  2. 생성 모델 (Generative Models): Stable Diffusion과 같은 확산 모델(Diffusion Model)을 기반으로, 노이즈를 제거하며 깊이 맵을 ’생성’한다. Marigold가 대표적이다. 이들은 텍스처가 풍부한 영역의 디테일 복원에는 강하지만, 추론 속도가 매우 느리고 기하학적 정합성이 떨어질 위험이 있다.8

DAv2는 판별 모델의 노선을 따르며, 생성 모델 대비 10배 이상의 속도와 높은 효율성을 무기로 삼는다. 이는 실시간 처리가 필수적인 자율주행이나 로보틱스 분야에서 DAv2가 선호되는 결정적인 이유다.

3. Depth Anything V2의 핵심 설계 철학: 데이터 품질이 전부다

DAv2 연구의 핵심은 복잡한 모델 아키텍처의 설계가 아니라, 학습 데이터의 품질 관리와 파이프라인의 최적화에 있다. 연구진은 기존 V1의 한계를 분석한 결과, 실제 데이터(Real Data)의 레이블 품질이 모델의 성능을 저해하는 병목(Bottleneck)임을 발견했다.

3.1 실제 데이터 레이블의 한계와 합성 데이터의 도입

LiDAR나 Kinect 센서로 수집된 실제 이미지의 깊이 레이블은 다음과 같은 본질적인 문제를 안고 있다.

  • 희소성 (Sparsity): LiDAR 포인트 클라우드는 듬성듬성하여 픽셀 단위의 조밀한(Dense) 정보를 제공하지 못한다.
  • 노이즈 (Noise): 반사되는 표면(유리, 거울)이나 검은색 물체, 얇은 구조물(자전거 바퀴살 등)에서 센서 오류가 빈번하게 발생한다.7
  • 오정렬 (Misalignment): 카메라와 깊이 센서 간의 시차로 인해 이미지의 엣지와 깊이 맵의 엣지가 정확히 일치하지 않는 경우가 많다.

DAv2는 이러한 문제를 해결하기 위해 초기 학습 단계에서 실제 레이블 이미지를 완전히 배제하고, 100% 합성 이미지(Synthetic Images)만을 사용하는 결단을 내렸다.3 Hypersim, Virtual KITTI와 같은 고품질 합성 데이터셋은 컴퓨터 그래픽스 엔진을 통해 생성되므로, 투명한 물체나 미세한 구조물에 대해서도 픽셀 단위로 완벽한 정답(Ground Truth)을 제공한다. 이는 모델이 얇은 의자 다리나 나뭇가지와 같은 고주파(High-frequency) 디테일을 명확하게 학습할 수 있는 기반이 된다.

3.2 3단계 Teacher-Student 학습 파이프라인

합성 데이터만으로 학습된 모델은 현실 세계의 복잡한 조명과 텍스처(Domain Gap)에 적응하지 못할 수 있다. DAv2는 이를 극복하기 위해 정교한 3단계 파이프라인을 구축했다.3

단계모델 (Model)학습 데이터 (Data)핵심 목표 (Objective)
Step 1Teacher (ViT-Giant)고품질 합성 이미지 (595K)정확한 기하학적 구조와 엣지 디테일 학습. 노이즈 없는 정답을 통해 ’보는 법’을 익힘.
Step 2Pseudo-labeling대규모 실제 이미지 (62M+)Teacher 모델을 사용해 레이블이 없는 실제 이미지에 가상 레이블(Pseudo-label) 생성.
Step 3Student (S/B/L)가상 레이블된 실제 이미지Teacher의 지식을 증류(Distillation)받아 실제 환경에서의 일반화 능력 확보.

이 과정에서 Teacher 모델(DINOv2-Giant 백본 사용)은 합성 데이터의 정밀함을 학습하고, 이를 통해 대규모 실제 데이터(Google Landmark, LAION 등)에 대한 고품질의 가상 레이블을 생성한다. Student 모델은 이 가상 레이블을 정답지로 삼아 학습함으로써, 합성 데이터의 ’정밀함’과 실제 데이터의 ’다양성’을 동시에 흡수하게 된다. 연구 결과, 이렇게 학습된 Student 모델은 Teacher 모델보다도 더 강건한 성능을 발휘하는 것으로 나타났다. 이는 대규모 데이터셋을 통한 학습이 일반화 능력을 극대화했기 때문이다.7

4. 모델 아키텍처 상세 분석

DAv2의 아키텍처는 효율성과 강력한 특징 추출 능력을 겸비하도록 설계되었다. 기본적으로 인코더-디코더 구조를 따르며, 최신 Vision Transformer 기술이 집약되어 있다.

4.1 인코더: DINOv2 (Vision Transformer)

DAv2는 입력 이미지로부터 특징을 추출하기 위해 Meta AI의 DINOv2를 백본으로 사용한다.1 DINOv2는 대규모 데이터셋에서 자기 지도 학습(Self-Supervised Learning)으로 훈련된 모델로, 이미지의 의미론적(Semantic) 정보뿐만 아니라 기하학적 구조 정보를 매우 잘 포착하는 것으로 알려져 있다.

  • 스케일 다양성: 사용자의 하드웨어 환경과 요구 사항에 맞춰 네 가지 크기의 모델을 제공한다.10
  • Small (ViT-S): 2,480만 파라미터. 모바일 및 엣지 디바이스용.
  • Base (ViT-B): 9,750만 파라미터. 성능과 속도의 균형.
  • Large (ViT-L): 3억 3,530만 파라미터. 고성능 워크스테이션용.
  • Giant (ViT-G): 13억 파라미터. 최고의 성능을 위한 플래그십 모델 (Teacher 모델로 주로 사용됨).

4.2 디코더: DPT (Dense Prediction Transformer)

추출된 특징을 깊이 맵으로 변환하기 위해 DPT(Dense Prediction Transformer) 헤드를 사용한다. DPT는 ViT의 토큰(Token) 형태 출력을 다시 2D 공간 특징 맵으로 재조립(Reassemble)하고, 점진적인 업샘플링(Upsampling)과 합성곱(Convolution) 연산을 통해 원본 해상도의 깊이 값을 예측한다.

V1 대비 주요 변경점:

V1에서는 DINOv2의 마지막 4개 레이어의 특징만을 사용하여 디코딩했으나, V2에서는 중간 레이어(Intermediate features)의 특징을 추출하여 사용하는 방식으로 변경되었다.2

  • 이러한 변경은 DINOv2의 중간 레이어들이 이미지의 로컬한 정보나 텍스처 정보를 더 풍부하게 담고 있을 수 있다는 가정에서 출발했다.
  • 연구진은 논문 및 기술 문서에서 “이 변경이 성능에 비약적인 향상을 가져오지는 않았으나, 일반적인 관행(Common practice)을 따르기 위해 수정했다“고 솔직하게 기술하고 있다. 이는 DAv2의 성능 향상이 아키텍처의 변경보다는 데이터 파이프라인의 혁신에서 기인했음을 방증한다.

4.3 손실 함수 (Loss Functions) 및 학습 기법

구체적인 수식이 스니펫에 명시되지는 않았으나, DAv2는 일반적인 깊이 추정 모델들이 사용하는 손실 함수의 조합을 최적화하여 사용한다.

  • Scale-Invariant Loss: 상대적 깊이 추정 모델의 특성상, 절대적인 거리 오차보다는 픽셀 간의 상대적인 비율 관계를 학습하는 데 중점을 둔다.
  • Gradient Loss (Edge Loss): 이미지의 엣지 부분에서 깊이 값이 급격하게 변하는 것을 명확히 학습하도록 유도한다. 이는 DAv2가 물체의 경계선을 뭉개뜨리지 않고 날카롭게 보존하는 데 기여한다.12

5. 성능 평가: 벤치마크 및 경쟁 모델 비교

DAv2의 성능은 기존의 주류 모델들(MiDaS, V1)은 물론, 최신 생성형 모델(Marigold)이나 메트릭 특화 모델(Depth Pro)과 비교해도 압도적이거나 고유한 강점을 가진다.

5.1 DA-2K 벤치마크의 신설

연구진은 기존 평가 데이터셋(KITTI, NYUv2)이 제한된 환경(주로 자율주행이나 실내)에 편중되어 있고, 레이블의 품질이 낮다는 점을 지적하며 DA-2K라는 새로운 벤치마크를 구축했다.13

  • 구성: 다양한 환경(실내, 실외, 비정형 물체 등)을 포함하는 고품질 이미지.
  • 주석: 희소하지만 매우 정밀한(Sparse but precise) 수동 주석을 통해 모델의 미세한 디테일 복원 능력을 엄밀하게 평가한다.

5.2 정량적 비교 분석 (Quantitative Analysis)

제로샷(Zero-shot) 상대적 깊이 추정 성능에서 DAv2는 경쟁 모델들을 크게 앞선다. 다음은 주요 벤치마크 결과다.5

표 1. KITTI 데이터셋 제로샷 평가 결과 (AbsRel: 낮을수록 좋음, \delta_1: 높을수록 좋음)

모델 (Model)백본 (Backbone)AbsRelδ1 (Accuracy)비고
MiDaS v3.1ViT-L0.1270.850기존 SOTA
Depth Anything V1ViT-L--전작
Depth Anything V2ViT-L0.0740.946MiDaS 대비 압도적 성능
MarigoldSD (Gen.)-0.868생성 모델

위 표에서 볼 수 있듯이, DAv2(ViT-L)는 MiDaS v3.1 대비 에러율(AbsRel)을 거의 절반 수준으로 낮췄으며, 정확도(\delta_1)는 95%에 육박한다. 이는 별도의 파인튜닝 없이 달성한 결과라는 점에서 매우 고무적이다.

5.3 정성적 비교 및 경쟁 모델 분석

vs. Marigold (생성형 모델):

Marigold는 Stable Diffusion을 기반으로 하여 텍스처가 풍부한 영역의 디테일을 복원하는 데 강점이 있다. 그러나 다음과 같은 명확한 한계가 존재한다.1

  • 속도: Marigold는 한 장의 이미지를 처리하는 데 약 5.2초(RTX 4090 기준)가 소요된다. 반면 DAv2-Large는 0.213초(213ms) 만에 처리를 완료하여 약 25배 더 빠르다.
  • 강건성: DAv2는 투명한 유리, 거울, 복잡한 기하학적 구조(예: 의자 다리)를 인식하는 데 훨씬 강건하다. Marigold는 이러한 영역에서 텍스처 정보가 부족할 경우 환각(Hallucination)을 일으키거나 뭉개지는 현상이 발생한다.
  • 디테일: Marigold는 털이나 머리카락 같은 고주파 텍스처 복원에는 유리하지만, 전반적인 구조적 정확성은 DAv2가 우위다.

vs. Depth Pro (메트릭 특화):

Depth Pro는 경계선(Boundary)의 날카로움(Sharpness)과 카메라 정보 없이 절대 깊이(Metric Depth)를 추정하는 능력에서 강점을 보인다.8

  • 경계선: Sintel 벤치마크에서 Depth Pro는 DAv2보다 높은 경계선 정확도(F1 Score)를 기록했다. DAv2는 상대적으로 결과물이 부드럽게(Smooth) 나오는 경향이 있다.
  • 활용처: 절대적인 치수 측정이 중요하고 시간이 충분하다면 Depth Pro가, 실시간성과 범용적인 구조 인식이 중요하다면 DAv2가 적합하다.

6. 확장성: 메트릭 깊이 및 비디오 깊이 추정

DAv2는 단순한 상대적 깊이 추정을 넘어, 다양한 응용 분야로 확장되고 있다.

6.1 메트릭 깊이 추정 (Metric Depth Estimation)

기본 DAv2 모델은 “무엇이 더 앞에 있는가“를 나타내는 상대적 깊이를 출력한다. 그러나 자율주행이나 AR과 같은 응용 분야에서는 “몇 미터 앞에 있는가“라는 절대적 수치가 필요하다. DAv2는 파운데이션 모델의 강력한 특징 추출 능력을 바탕으로, 소량의 메트릭 데이터로 파인튜닝했을 때 최고의 성능을 보여준다.3

  • 모델 제공: 연구진은 실내(Indoor) 환경용으로 Hypersim 데이터셋, 실외(Outdoor) 환경용으로 Virtual KITTI 데이터셋을 이용해 파인튜닝된 메트릭 모델을 별도로 제공한다.
  • 성능: NYUv2(실내) 및 KITTI(실외) 데이터셋에서 In-domain 평가뿐만 아니라 Zero-shot 평가에서도 기존 최고 모델인 ZoeDepth와 VPD를 능가했다. 예를 들어 NYUv2에서 \delta_1 정확도를 0.964에서 0.984로 끌어올렸다. 이는 DAv2가 단순한 상대적 깊이 추정기를 넘어, 강력한 가중치 초기화(Weight Initialization) 모델로 기능함을 의미한다.

6.2 비디오 깊이 추정 (Video Depth Anything)

단일 이미지 모델을 비디오의 각 프레임에 독립적으로 적용하면, 프레임 간의 깊이 값이 미세하게 떨리는 ‘Flickering’ 현상이 발생하여 3D 재구성 시 품질을 저하시킨다. 이를 해결하기 위해 Video Depth Anything이 개발되었다.16

  • 기술적 혁신: DAv2의 인코더는 동결(Freeze)하고, 디코더 부분에 시간적 관계를 학습하는 Spatio-Temporal Head를 추가했다. 이 헤드는 프레임 간의 상관관계를 분석하여 깊이의 연속성을 보장한다.
  • 학습 전략: 레이블이 있는 비디오 데이터와 레이블이 없는 비디오 데이터를 함께 사용하며, Temporal Gradient Matching (TGM) 손실 함수를 도입하여 시간적 일관성을 강제한다. 이는 광학 흐름(Optical Flow)과 같은 무거운 외부 모듈 없이도 부드러운 깊이 영상을 생성하게 한다.
  • 스트리밍 모드: 긴 비디오를 처리하기 위해, 과거 프레임의 Hidden State를 캐싱(Caching)하여 메모리를 효율적으로 사용하는 스트리밍 모드를 지원한다. 이를 통해 RTX 4090과 같은 GPU에서 실시간에 가까운 속도로 일관성 있는 비디오 깊이 추정이 가능하다.

7. 구현 및 실무 적용 가이드

DAv2는 연구 목적뿐만 아니라 실제 상용 제품에 적용하기에도 매우 적합한 특성을 가진다.

7.1 하드웨어 요구 사항 및 추론 속도

다양한 모델 크기를 제공하므로 사용 환경에 맞춰 유연하게 선택할 수 있다.18

표 2. 모델 크기별 하드웨어 요구 사항 및 특징

모델파라미터권장 하드웨어예상 속도 (RTX 4090)용도
Small (ViT-S)24.8M엣지 디바이스, 모바일, Jetson> 100 FPS (매우 빠름)실시간 모바일 AR, 드론
Base (ViT-B)97.5M소비자용 GPU (RTX 3060 등)~60 FPS일반적인 데스크톱 애플리케이션
Large (ViT-L)335.3M고성능 GPU (RTX 4090 등)~5 FPS (213ms/frame)고품질 3D 콘텐츠 제작
Giant (ViT-G)1.3B데이터센터용 GPU (A100, 24GB+ VRAM)느림 (OOM 주의)최상의 품질 연구, Teacher 모델
  • Giant 모델 주의사항: 파라미터 수가 13억 개에 달해 일반적인 GPU에서는 메모리 부족(OOM) 현상이 발생할 수 있다. 24GB 이상의 VRAM을 권장하며, 입력 해상도를 조절하거나 타일링(Tiling) 기법을 사용해야 할 수 있다.

7.2 배포 및 최적화 (TensorRT, ONNX)

실제 서비스 배포를 위해서는 PyTorch 모델을 그대로 사용하는 것보다 TensorRT나 ONNX로 변환하여 최적화하는 것이 필수적이다.

  • NVIDIA TAO Toolkit: NVIDIA는 DAv2를 최적화한 NvDepthAnythingV2를 제공한다. FP16 정밀도 변환 시 정확도 손실 없이 비약적인 속도 향상을 얻을 수 있다.18
  • OpenVINO & NNCF: Intel CPU 환경이나 엣지 디바이스를 위해서는 OpenVINO를 활용한 NNCF 양자화(Quantization, INT8)가 효과적이다. 이를 통해 모델 용량을 줄이고 CPU 추론 속도를 높일 수 있다.9

7.3 코드 구현 예시 (Python)

Hugging Face Transformers 라이브러리를 사용하면 단 몇 줄의 코드로 DAv2를 실행할 수 있다.2

import torch
from transformers import pipeline
from PIL import Image

# 1. 파이프라인 로드 (Small 모델, CPU/GPU 자동 할당)
# 상대적 깊이 추정 모델 예시
device = "cuda" if torch.cuda.is_available() else "cpu"
pipe = pipeline(task="depth-estimation", model="depth-anything/Depth-Anything-V2-Small-hf", device=device)

# 2. 이미지 로드 및 추론
image = Image.open('input_image.jpg')
depth_output = pipe(image)
depth_map = depth_output["depth"]

# 3. 결과 저장 또는 시각화
depth_map.save("output_depth.png")

메트릭 깊이 추정이 필요한 경우, 모델 식별자를 depth-anything/Depth-Anything-V2-Metric-Outdoor-Large-hf 등으로 변경하고, 후처리 과정에서 모델이 출력하는 텐서 값을 미터 단위로 해석하면 된다.21

8. 논의: 한계점과 미래 전망

DAv2는 혁신적인 모델이지만 완벽하지는 않다. 사용자는 모델의 특성과 한계를 명확히 인지해야 한다.

8.1 기술적 한계

  • 텍스처 부재 영역 (Texture-less Regions): 아무런 무늬가 없는 흰색 벽이나 어두운 공간에서는 깊이 추정이 불안정할 수 있다. 이는 시각적 특징(Feature)에 의존하는 모든 비전 모델의 공통적인 문제다.
  • 절대 스케일의 모호성: 메트릭 모델이라 하더라도 단안 카메라의 특성상 카메라의 초점 거리(Focal Length)나 센서 크기 정보 없이는 완벽한 절대 크기를 알 수 없다. 학습 데이터와 다른 렌즈 특성을 가진 이미지가 입력되면 오차가 커질 수 있다.14
  • 거울 반사: V1 대비 많이 개선되었으나, 여전히 거울에 비친 상을 실제 공간으로 착각하여 깊게 뚫려 있는 것으로 예측하는 경우가 있다.

8.2 파급 효과 및 전망

DAv2의 등장은 3D 콘텐츠 제작의 민주화(Democratization)를 가속화할 것이다. 누구나 스마트폰 사진 한 장으로 고품질의 3D 뷰를 생성하거나, 포커스 효과(Bokeh)를 줄 수 있게 되었다. 또한, ControlNet과 결합하여 생성형 AI가 이미지를 생성할 때 구도와 깊이를 정밀하게 제어하는 데 핵심적인 역할을 수행하고 있다.22

더 나아가, Video Depth Anything과 같은 확장 기술은 로보틱스 분야에서 SLAM(Simultaneous Localization and Mapping)의 보조 센서로 활용되거나, 2D 영화를 고품질 3D 영화로 변환하는 작업 효율을 획기적으로 높일 것으로 기대된다.

9. 결론

Depth Anything V2는 “데이터가 곧 모델의 성능“이라는 명제를 가장 극명하게 증명한 사례다. 복잡한 아키텍처나 새로운 손실 함수를 개발하는 대신, 실제 데이터의 레이블 품질 문제를 합성 데이터로 해결하고, 이를 다시 대규모 데이터셋으로 증류(Distillation)하는 영리한 전략을 통해 SOTA 성능을 달성했다.

기존의 생성형 모델들이 보여준 화려함 뒤에 숨겨진 비효율성을 극복하고, 실용적이고 빠르면서도 정확한 솔루션을 제공한다는 점에서 DAv2는 현재 시점에서 가장 완성도 높은 단안 깊이 추정 모델이라 평가할 수 있다. 연구자들에게는 강력한 베이스라인으로, 산업계에는 즉시 투입 가능한 실용적인 도구로 자리 잡은 DAv2는, 향후 컴퓨터 비전이 나아가야 할 ’데이터 중심(Data-Centric)’의 방향성을 제시하는 이정표가 될 것이다.

10. 참고 자료

  1. Depth Anything V2 - arXiv, https://arxiv.org/html/2406.09414v1
  2. [NeurIPS 2024] Depth Anything V2. A More Capable Foundation Model for Monocular Depth Estimation - GitHub, https://github.com/DepthAnything/Depth-Anything-V2
  3. Depth Anything V2, https://depth-anything-v2.github.io/
  4. Depth Anything V2 - NIPS papers, https://proceedings.neurips.cc/paper_files/paper/2024/file/26cfdcd8fe6fd75cc53e92963a656c58-Paper-Conference.pdf
  5. Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data, https://3dvar.com/Yang2024Depth.pdf
  6. isl-org/MiDaS: Code for robust monocular depth estimation described in “Ranftl et. al., Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer, TPAMI 2022” - GitHub, https://github.com/isl-org/MiDaS
  7. Unveiling Depth Anything V2: A Breakthrough in Monocular Depth Estimation | by Sunidhi Ashtekar | Medium, https://medium.com/@sunidhi.ashtekar/unveiling-depth-anything-v2-a-breakthrough-in-monocular-depth-estimation-4c3f00fd4961
  8. Best Depth Estimation Models: Depth Anything V2 & More - Roboflow Blog, https://blog.roboflow.com/depth-estimation-models/
  9. Depth estimation with DepthAnythingV2 and OpenVINO, https://docs.openvino.ai/2024/notebooks/depth-anything-v2-with-output.html
  10. README_Github.md · qubvel-hf/depth-anything-v1-vs-v2 at 187c6c8592db7aab6c89271371d2c9eac8d00c33 - Hugging Face, https://huggingface.co/spaces/qubvel-hf/depth-anything-v1-vs-v2/blob/187c6c8592db7aab6c89271371d2c9eac8d00c33/README_Github.md
  11. Depth-Anything-V2 - Qualcomm AI Hub, https://aihub.qualcomm.com/iot/models/depth_anything_v2
  12. Depth Anything V2: Advanced Depth Estimation - Emergent Mind, https://www.emergentmind.com/topics/depth-anything-v2
  13. Depth Anything V2 - NIPS papers, https://papers.nips.cc/paper_files/paper/2024/hash/26cfdcd8fe6fd75cc53e92963a656c58-Abstract-Conference.html
  14. Depth Pro Explained: Sharp, Fast Monocular Metric Depth Estimation - Learn OpenCV, https://learnopencv.com/depth-pro-monocular-metric-depth/
  15. depth-anything/Depth-Anything-V2-Metric-Hypersim-Base · Hugging Face, https://huggingface.co/depth-anything/Depth-Anything-V2-Metric-Hypersim-Base
  16. [CVPR 2025 Highlight] Video Depth Anything: Consistent Depth Estimation for Super-Long Videos - GitHub, https://github.com/DepthAnything/Video-Depth-Anything
  17. [Quick Review] Video Depth Anything: Consistent Depth Estimation for Super-Long Videos, https://liner.com/review/video-depth-anything-consistent-depth-estimation-for-superlong-videos
  18. NvDepthAnythingv2 - NGC Catalog - NVIDIA, https://catalog.ngc.nvidia.com/orgs/nvidia/teams/tao/models/nvdepthanythingv2
  19. Inference benchmarks for V2: Depth anything V2 · Issue #26 - GitHub, https://github.com/fabio-sim/Depth-Anything-ONNX/issues/26
  20. Nap/depth_anything_v2_vitg - Hugging Face, https://huggingface.co/Nap/depth_anything_v2_vitg
  21. depth-anything/Depth-Anything-V2-Metric-Outdoor-Large-hf - Hugging Face, https://huggingface.co/depth-anything/Depth-Anything-V2-Metric-Outdoor-Large-hf
  22. [CVPR 2024] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data. Foundation Model for Monocular Depth Estimation - GitHub, https://github.com/LiheYoung/Depth-Anything